La méthode ETC

La méthode extraction-transformation-chargement est une stratégie employée pour amener les données de leur source initiale vers l’entrepôt de données. Il s’agit, comme son nom l’indique, d’un processus en trois étapes.

Extraction

La plupart des entrepôts de données prennent leurs données de différentes sources. Par exemple, dans une université, les données d’un entrepôt peuvent provenir d’une base de données Oracle sous la responsabilité du registraire, de tableaux téléchargés du site web du ministère de l’Éducation et de statistiques provenant de différents autres organismes. Il arrive que les données se trouvent même dans des logiciels qui ne permettent pas un accès direct aux données : par exemple, certaines données sont gérées par des logiciels conçus dans les années 70 par des programmeurs maintenant à la retraite.

Il faut donc être capable d’extraire ces données des systèmes d’origine afin de les traiter au sein de l’entrepôt de données. Cette tâche est parfois difficile à automatiser.

L’extraction peut parfois nécessiter plusieurs phases et comprendre des étapes de validation. En effet, il ne suffit pas d’extraire les données, il faut encore s’assurer que les données sont valables et correctes.

Au cours de cette semaine, nous étudierons deux exemples d’extraction : celle à partir des fichiers plats et celle à partir des fichiers XML.

Transformation

Parfois, les données extraites peuvent être chargées directement dans l’entrepôt de données. C’est souvent le cas avec les données provenant de bases de données relationnelles. Par contre, bien souvent, il faut modifier les données avant de les charger.

– Il peut être nécessaire de filtrer les données pour ne retenir que ce qui nous convient. Par exemple, on peut vouloir omettre le nom des étudiants lorsqu’on charge des données en provenance du registraire d’une université.
– Il peut être nécessaire de traduire certains codes. Par exemple, si le service de la comptabilité utilise le code 1 pour les étudiants de sexe masculin, et le code 2 pour les étudiantes, il faudra peut-être transformer ces valeurs en M et F avant le chargement.
– On peut devoir faire certains calculs, comme faire la somme des frais de scolarité qu’un étudiant a payés dans une année.
– On peut devoir trier les données, par ordre chronologique.
– On peut devoir joindre des données provenant de différentes sources : si les frais de scolarité payés par un étudiant sont fournis par le service de la comptabilité, la note moyenne obtenue peut être fournie par le registraire. Si on veut avoir une vue d’ensemble de toutes les données, il faut s’assurer de pouvoir mettre ensemble toutes les données provenant d’un même étudiant, peu importe leur source.
– etc.

Chargement

Une fois les données extraites et transformées, on peut les charger dans l’entrepôt de données. Cette phase peut se faire à différents moments. Parfois, on met à jour l’entrepôt tous les jours, parfois toutes les heures, parfois tous les mois. Ce chargement peut aussi être incrémental ou complet : dans certains cas, on ne charge que les nouvelles données, tout en conservant des archives des données précédentes, dans d’autres cas, les données nouvellement chargées viennent remplacer complètement les anciennes données. Le chargement peut se faire différemment selon les sources ou le type de données, au sein d’un même entrepôt de données. Cependant, l’entrepôt doit toujours maintenir sa cohérence : en ne changeant qu’une partie des données, il ne faut pas amener les utilisateurs à tirer de mauvaises conclusions basées sur des données partielles. Par exemple, si l’on modifie les données concernant le revenu sans modifier les dépenses, l’entreprise peut sembler subitement beaucoup plus profitable qu’elle ne l’est vraiment !

Pour en savoir plus...

– Article ETL dans Wikipédia.

Semaine 2

RECHERCHE

La méthode ETC